视频时间基础(VTG)的目标是根据自然语言(NL)描述在未修剪视频中定位时间矩。由于现实世界的应用程序提供了永无止境的视频流,因此它提出了对长形视频的时间基础的需求,这导致了两个主要挑战:(1)长视频长度使得很难处理整个视频而不减少样本速率并导致高计算负担; (2)随着候选时间的增加数量,准确的多模式对准更具挑战性。为了应对这些挑战,我们提出了一个有效的以窗户为中心的粗略对齐框架,它可以灵活地处理具有较高推理速度的长格式视频输入,并通过我们的新颖的Choce-Fine Muly-Fine增强了时间基础模态对齐框架。具体来说,我们通过滑动窗口方法将长视频将长视频切成候选窗口。 Cone(1)以窗户为中心,通过对比度学习和通过对NL查询相关的候选窗口进行过滤来学习窗口间的(粗粒)语义差异,并且(2)执行内部(罚款) - 使用强大的对比视力文本预训练模型的强大多模式对齐能力对候选力矩进行排名。长期视频的两个大规模VTG基准测试的广泛实验始终显示出可观的性能增长(MAD的3.13%至6.87%,从10.46%到EGO4D-NLQ上的10.46%至13.46%),并且Cone在两个数据集上都可以达到SOTA结果。分析揭示了组件的有效性和长期视频接地的效率较高,因为我们的系统在EGO4D-NLQ上提高了2倍的推理速度,而在MAD上提高了15倍的速度,同时保持了锥体的SOTA性能。
translated by 谷歌翻译
视频变压器自然会产生比静态视觉变压器更重的计算负担,因为前者在二次复杂性$(t^2n^2)$的当前关注下,$ t $ t $倍的序列比后者长。现有作品将颞轴视为空间轴的简单扩展,重点是通过通用池或局部窗口缩短时空序列,而无需使用时间冗余。但是,视频自然包含相邻框架之间的冗余信息;因此,我们可能会以扩张的方式抑制视觉上相似帧的注意力。基于这一假设,我们提出了圈,长期`\ textbf {\ textit {leap coasitive}}''(la),短期`\ textbf {\ textbf {\ textit {preckentien shiftit {presentiic shift}}}'('( \ textit {p} -Shift)用于视频变压器的模块,带有$(2Tn^2)$复杂性。具体而言,``la''将长期帧分为对,然后通过注意来重构每个离散对。 ``\ textit {p} -shift''在时间邻居之间交换特征,以面对短期动力学的丧失。通过用圈替换香草2D的注意,我们可以将静态变压器调整为视频,其中零额外的参数和可忽视的计算开销($ \ sim $ 2.6 \%)。对标准动力学-400基准的实验表明,我们的圈量变压器可以在CNN和Transformer Sotas之间的准确性,FLOP和参数方面实现竞争性能。我们以\ sloppy \ href {https://github.com/videonetworks/laps-transformer} {\ textit {\ textit {\ color {agenta} {https://github.com/videonetworks/laps-transsfornss/laps-transformer} { }}。
translated by 谷歌翻译
多尺度视觉变压器(VIT)已成为计算机视觉任务的强大骨干,而变压器量表中的自发计算则四处w.r.r.t.输入补丁编号。因此,现有的解决方案通常采用下采样操作(例如,平均合并)对密钥/值进行大幅降低计算成本。在这项工作中,我们认为,这种过度侵略性的下采样设计并不是可逆的,不可避免地会导致信息删除,尤其是对于物体中的高频组件(例如,纹理细节)。在小波理论的驱动下,我们构建了一种新的小波视觉变压器(\ textbf {Wave-vit}),该变压器以统一的方式通过小波变换和自我发挥学习来制定可逆的下采样。该提案可以通过对钥匙/价值观进行无损的下采样,从而实现自我发挥的学习,从而促进了追求更好的效率-VS-VS-Crifacy权衡。此外,逆小波变换被利用以通过扩大的接收场来汇总局部环境来增强自我注意力输出。我们通过广泛的实验比多个视觉任务(例如,图像识别,对象检测和实例分割)来验证波动的优势。它的性能超过了具有可比的拖鞋的最先进的VIT骨干。源代码可在\ url {https://github.com/yehli/imagenetmodel}中获得。
translated by 谷歌翻译
跨模式表示学习已成为弥合文本和视觉数据之间语义差距的新常态。但是,在连续的潜在空间中学习模态不可知表示通常被视为黑盒数据驱动的训练过程。众所周知,表示学习的有效性在很大程度上取决于培训数据的质量和规模。对于视频表示学习,拥有一组完整的标签来注释全部视频内容进行培训,即使不是不可能,也很难。这些问题,即黑盒培训和数据集偏见,由于无法解释和无法预测的结果,代表学习实际上具有挑战性地用于视频理解。在本文中,我们提出了两个新颖的培训目标,即可能性和不可能的功能,以在嵌入背后的语义上展开语义,同时解决训练中的标签稀疏问题。可能性训练旨在解释培训标签以外的嵌入语义,而不可能的培训利用了正规化的先验知识,以确保语义上的一致性解释。通过这两个培训目标,提出了一个新的编码器 - 模型网络,该网络将学习可解释的跨模式表示形式,用于临时视频搜索。关于TrecVID和MSR-VTT数据集的广泛实验表明,所提出的网络的表现优于几个最新的检索模型,具有统计学意义的性能差。
translated by 谷歌翻译
卷积神经网络(CNN)被认为是视觉识别的首选模型。最近,基于多头自我注意力(MSA)或多层感知器(MLP)的无卷积网络变得越来越流行。然而,由于视频数据的差异和复杂性,利用这些新染色的网络进行视频识别并不是微不足道的。在本文中,我们提出了MLP-3D Networks,这是一种新颖的MLP型3D体系结构,用于视频识别。具体而言,该体系结构由MLP-3D块组成,其中每个块包含一个跨令牌施加的一个MLP(即令牌混合MLP),一个MLP独立地应用于每个令牌(即通道MLP)。通过得出新型的分组时间混合(GTM)操作,我们将基本令牌混合MLP配备了时间建模的能力。 GTM将输入令牌分为几个时间组,并用共享投影矩阵线性地映射每个组中的令牌。此外,我们通过不同的分组策略设计了几种GTM的变体,并通过贪婪的体系结构搜索在MLP-3D网络的不同块中组成每个变体。在不依赖卷积或注意机制的情况下,我们的MLP-3D网络分别获得68.5 \%/81.4 \%\%TOP-1的准确性,分别在某些V2和Kinetics-400数据集上。尽管计算较少,但结果与最新通用的3D CNN和视频变压器相当。源代码可从https://github.com/zhaofanqiu/mlp-3d获得。
translated by 谷歌翻译
视频内容是多方面的,由对象,场景,交互或操作组成。现有数据集主要标记为模型培训的一个方面,导致视频表示根据训练数据集仅偏置为一个小平面。目前还没有研究如何学习来自多方面标签的视频表示,以及多方面的信息是否有助于视频表示学习。在本文中,我们提出了一种新的学习框架,多朝向集成(MUFI),以聚合来自不同数据集的面部,以学习可以反映视频内容的全频谱的表示。从技术上讲,MUFI将问题交流为视觉语义嵌入学习,该问题将视频表示映射到丰富的语义嵌入空间中,并从两个角度联合优化视频表示。一个是利用每个视频和自己的标签描述之间的小型内部监督,第二个是从其他数据集的小平面预测每个视频的“语义表示”作为刻面监控。广泛的实验表明,通过我们的MUFI框架在四个大型视频数据集加上两个图像数据集的联盟上学习3D CNN,导致视频表示的优异能力。具有MUFI的预先学习的3D CNN还显示出在几个下游视频应用上的其他方法的清晰改进。更值得注意的是,MUFI在UCF101 / HMDB51上实现98.1%/ 80.9%,用于行动识别和101.5%,在MSVD上的浏览器D得分为视频字幕。
translated by 谷歌翻译
由于细粒度的视觉细节中的运动和丰富内容的大变化,视频是复杂的。从这些信息密集型媒体中抽象有用的信息需要详尽的计算资源。本文研究了一个两步的替代方案,首先将视频序列冷凝到信息“框架”,然后在合成帧上利用现成的图像识别系统。有效问题是如何定义“有用信息”,然后将其从视频序列蒸发到一个合成帧。本文介绍了一种新颖的信息帧综合(IFS)架构,其包含三个客观任务,即外观重建,视频分类,运动估计和两个常规方案,即对抗性学习,颜色一致性。每个任务都配备了一个能力的合成框,而每个常规器可以提高其视觉质量。利用这些,通过以端到端的方式共同学习帧合成,预期产生的帧封装了用于视频分析的所需的时空信息。广泛的实验是在大型动力学数据集上进行的。与基线方法相比,将视频序列映射到单个图像,IFS显示出优异的性能。更值得注意地,IFS始终如一地展示了基于图像的2D网络和基于剪辑的3D网络的显着改进,并且通过了具有较少计算成本的最先进方法实现了相当的性能。
translated by 谷歌翻译
由于具有高复杂性和训练方案的各种选项,最佳地学习3D卷积神经网络(3D COUNCNET)并不重要。最常见的手工调整过程从使用短视频剪辑开始学习3D扫描,然后使用冗长的剪辑学习长期时间依赖性,同时逐渐将学习率衰减到低至低于低的学习率随着训练的进展。这样的过程与几个启发式设置出现的事实激发了研究,以寻求最佳的“路径”以自动化整个培训。在本文中,我们将路径分解为一系列训练“状态”,并在每个状态下指定超参数,例如学习率和输入剪辑的长度。膝关节曲线上的膝关节估计触发从一个状态到另一个状态的转换。我们在所有候选状态下执行动态编程,以规划状态的最佳排列,即优化路径。此外,我们使用独特的双头分类器设计设计了一种新的3D扫描,以提高空间和时间辨别。关于七个公共视频识别基准的广泛实验证明了我们提案的优势。通过优化规划,与最先进的识别方法相比,我们的3D ConverNets在比较时实现了卓越的结果。更值得注意地,我们分别在动力学-400和动力学-600数据集中获得80.5%和82.7%的前1个精度。源代码在https://github.com/zhaofanqiu/optimization-planning-for-3d-convnets中获得。
translated by 谷歌翻译
我们解决了在均质半透明材料中建模光散射并估算其散射参数的问题。散射相函数是影响散射辐射分布的此类参数之一。它是在实践中建模的最复杂,最具挑战性的参数,通常使用经验相位函数。经验相函数(例如Henyey-Greenstein(HG)相位函数)通常会呈现,并限于特定的散射材料范围。这种限制引起了人们对目标材料通常未知的反向渲染问题的关注。在这种情况下,首选更通用的相位函数。尽管使用诸如Legendre多项式\ cite {Fowler1983}之类的基础中存在这种通用相位函数,但此相函数的逆渲染并不直接。这是因为基础多项式在某个地方可能是负面的,而相位函数不能。这项研究提出了一种新型的通用相位功能,可以避免此问题,并使用此阶段函数进行逆渲染应用。通过以MIE散射理论建模的广泛的材料对所提出的相函数进行了积极评估。通过模拟和现实世界实验评估了带有建议的相函数的散射参数估计。
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译